iPAS AI應用規劃師經典回顧卷003

#1

★★★★★

在大數據 (Big Data) 的特性中，「資料量 (Volume)」指的是什麼？

A

數據的規模或大小，通常達到 TB (Terabytes) 或 PB (Petabytes) 等級。

B

數據生成或處理的速度。

C

數據來源或格式的多樣性。

D

數據的真實性與可信度。

答案解析

大數據的第一個 V，資料量 (Volume)，直接指數據的規模或數量級。傳統數據處理工具難以應對如此龐大的數據量。速度 (Velocity) 指數據流動的速度，多樣性 (Variety) 指數據的種類，真實性 (Veracity) 指數據的質量。

#2

★★★★★

描述大數據 (Big Data) 處理即時串流資料 (real-time streaming data) 的能力，是指哪個特性？

A

資料量 (Volume)

B

速度 (Velocity)

C

多樣性 (Variety)

D

真實性 (Veracity)

答案解析

速度 (Velocity) 是指數據生成、收集和處理的速度。在大數據時代，數據經常是以高速、連續的串流形式產生（例如IoT感測器數據、社交媒體貼文），需要系統具備即時或近乎即時的處理能力。

#3

★★★★★

包含文字、圖像、影片和聲音等多種格式的數據，體現了大數據 (Big Data) 的哪個特性？

A

資料量 (Volume)

B

速度 (Velocity)

C

多樣性 (Variety)

D

價值 (Value)

答案解析

多樣性 (Variety) 指的是數據來源和格式的多樣化。大數據不僅包括傳統的結構化數據 (Structured Data)（如資料庫表格），還包括大量的非結構化數據 (Unstructured Data)（如文字、圖像、音頻、視頻）和半結構化數據 (Semi-structured Data)（如JSON、XML）。

#4

★★★★

在資料庫中，具有固定欄位和資料類型，如同試算表一樣的資料是屬於哪種類型？

A

結構化數據 (Structured Data)

B

非結構化數據 (Unstructured Data)

C

半結構化數據 (Semi-structured Data)

D

元數據 (Metadata)

答案解析

結構化數據 (Structured Data) 是指具有預定義格式和固定欄位的數據，通常儲存在關聯式資料庫 (Relational Database) 中，易於查詢和分析。試算表是典型的結構化數據。非結構化數據沒有固定格式（如文本、圖像），半結構化數據有某些組織結構但非固定欄位（如JSON），元數據是描述數據的數據。

#5

★★★★

電子郵件的內文通常被歸類為哪種類型的數據？

A

結構化數據 (Structured Data)

B

非結構化數據 (Unstructured Data)

C

半結構化數據 (Semi-structured Data)

D

數值數據 (Numerical Data)

答案解析

非結構化數據 (Unstructured Data) 指沒有固定內部結構或預定義模型的數據。電子郵件內文、社交媒體貼文、圖片、影片等都屬於此類，分析起來比結構化數據更複雜。

#6

★★★★

JSON (JavaScript Object Notation) 或 XML (Extensible Markup Language) 文件是哪種數據類型的典型範例？

A

結構化數據 (Structured Data)

B

非結構化數據 (Unstructured Data)

C

半結構化數據 (Semi-structured Data)

D

類別數據 (Categorical Data)

答案解析

半結構化數據 (Semi-structured Data) 介於結構化和非結構化之間，它不符合傳統資料庫的固定表格模式，但包含標籤 (tags) 或標記 (markers) 來區分語義元素和強制執行記錄與欄位之間的層次結構。例如 JSON 和 XML 文件。

#7

★★★★★

學生的「考試分數」（例如 0 到 100 分）屬於哪一種資料型態 (Data Type)？

A

數值型數據 (Numerical Data) - 連續型 (Continuous)

B

數值型數據 (Numerical Data) - 離散型 (Discrete)

C

類別型數據 (Categorical Data) - 名目型 (Nominal)

D

類別型數據 (Categorical Data) - 次序型 (Ordinal)

答案解析

考試分數是數值型 (Numerical)，因為它是可以測量的數字。理論上分數可以在一個範圍內取任何值（例如可以有小數點），因此更傾向於連續型 (Continuous)。連續型數據可以在給定範圍內取任何值，而離散型 (Discrete) 數據只能取特定的、可數的值（如學生人數）。類別型 (Categorical) 數據代表類別或標籤。

#8

★★★★★

"班級人數"是哪種資料型態 (Data Type)？

A

數值型數據 (Numerical Data) - 連續型 (Continuous)

B

數值型數據 (Numerical Data) - 離散型 (Discrete)

C

類別型數據 (Categorical Data) - 名目型 (Nominal)

D

類別型數據 (Categorical Data) - 次序型 (Ordinal)

答案解析

班級人數是數值型 (Numerical)，因為是數字。它只能是整數（不能有半個人），是可以計算的特定值，所以屬於離散型 (Discrete) 數據。

#9

★★★★★

將客戶依照「性別」（男、女）分類，這種數據屬於？

A

數值型數據 (Numerical Data)

B

類別型數據 (Categorical Data) - 次序型 (Ordinal)

C

類別型數據 (Categorical Data) - 名目型 (Nominal)

D

布林型數據 (Boolean Data)

答案解析

類別型數據 (Categorical Data) 用於表示不同的類別或群組。名目型 (Nominal) 數據是沒有內在順序的類別，例如性別、血型、顏色。次序型數據則是有順序的類別（如滿意度：非常滿意 > 滿意 > 普通）。布林型只有 True/False 兩種值。

#10

★★★★★

客戶滿意度調查結果，選項為「非常滿意、滿意、普通、不滿意、非常不滿意」，這是哪種資料型態 (Data Type)？

A

數值型數據 (Numerical Data) - 離散型 (Discrete)

B

類別型數據 (Categorical Data) - 名目型 (Nominal)

C

類別型數據 (Categorical Data) - 次序型 (Ordinal)

D

文本數據 (Text Data)

答案解析

次序型 (Ordinal) 數據是類別型 (Categorical) 數據的一種，其類別之間具有明確的順序或等級關係，但無法量化差異。滿意度等級（非常滿意 > 滿意 > ...）就是典型的次序型數據。

#11

★★★★

公司內部的客戶關係管理 (CRM, Customer Relationship Management) 系統中的客戶資料，屬於哪種資料來源 (Data Source)？

A

內部資料 (Internal Data)

B

外部資料 (External Data)

C

公開資料 (Open Data)

D

第三方資料 (Third-party Data)

答案解析

內部資料 (Internal Data) 是指由組織自身在營運活動中產生和收集的數據。CRM 系統、企業資源規劃 (ERP, Enterprise Resource Planning) 系統、銷售紀錄、網站日誌等都屬於內部資料。外部資料來自組織外部，公開資料是可自由使用的外部資料，第三方資料是從外部購買的資料。

#12

★★★★

政府資料開放平臺 (Open Data Platform) 上提供的人口統計數據，屬於哪種資料來源 (Data Source)？

A

內部資料 (Internal Data)

B

外部資料 (External Data) - 公開資料 (Open Data)

C

個人資料 (Personal Data)

D

專有資料 (Proprietary Data)

答案解析

外部資料 (External Data) 來自組織外部。公開資料 (Open Data) 是外部資料的一種，指由政府或非營利組織等機構發布，可供任何人自由使用、重製和分享的數據。政府開放平台上的數據是典型的公開資料。

#13

★★★

透過網路爬蟲 (Web Scraping) 技術從公開網站收集的產品評論，主要屬於哪一類資料來源 (Data Source)？

A

內部資料庫

B

外部公開來源

C

內部感測器數據

D

員工問卷調查

答案解析

公開網站上的產品評論是來自公司外部的資訊來源，且通常是公開可存取的，因此屬於外部公開來源。網路爬蟲 (Web Scraping) 是一種從網站自動提取數據的技術。

#14

★★★★★

在人工智慧 (AI, Artificial Intelligence) 專案中，資料 (Data) 主要扮演什麼角色？

A

最終的決策者

B

模型學習和訓練的基礎

C

使用者介面的設計元素

D

硬體設備的替代品

答案解析

資料 (Data) 是人工智慧 (AI)，尤其是機器學習 (ML, Machine Learning) 的核心驅動力。AI 模型透過分析大量的資料來學習模式、識別關係並做出預測或決策。沒有足夠且高品質的資料，AI 模型就無法有效地學習和運作。

#15

★★★★

用於訓練機器學習 (ML) 模型，並且已經標註了正確答案或輸出的資料集稱為什麼？

A

訓練資料集 (Training Dataset)

B

測試資料集 (Test Dataset)

C

驗證資料集 (Validation Dataset)

D

原始資料 (Raw Data)

答案解析

在監督式學習 (Supervised Learning) 中，訓練資料集 (Training Dataset) 是包含輸入特徵和對應正確輸出（標籤）的數據，模型使用這個資料集來學習輸入和輸出之間的關係。測試資料集用於評估訓練好的模型性能，驗證資料集用於調整模型超參數，原始資料是未經處理的數據。

#16

★★★★

確保資料集中的數據反映真實世界的情況，並且沒有錯誤或誤導性信息，是指資料品質的哪個面向？

A

準確性 (Accuracy)

B

完整性 (Completeness)

C

一致性 (Consistency)

D

及時性 (Timeliness)

答案解析

準確性 (Accuracy) 是衡量數據與其所代表的真實世界實體或事件相符的程度。高準確性的數據對於建立可靠的 AI 模型至關重要。完整性指數據沒有缺失值，一致性指數據在不同地方表示一致，及時性指數據是最新的。

#17

★★★★

資料集中缺少某些欄位的值，會影響資料品質的哪個面向？

A

準確性 (Accuracy)

B

完整性 (Completeness)

C

一致性 (Consistency)

D

獨特性 (Uniqueness)

答案解析

完整性 (Completeness) 指的是數據記錄中是否存在缺失值。不完整的數據會導致分析結果偏差或模型性能下降。處理缺失值是數據前處理的重要步驟。獨特性指數據記錄沒有重複。

#18

★★★★★

關於大數據 (Big Data) 的「真實性 (Veracity)」，下列敘述何者正確？

A

指數據量非常龐大。

B

指數據產生的速度非常快。

C

指數據的不確定性、可信度和品質。

D

指數據的種類格式非常多樣。

答案解析

真實性 (Veracity) 是大數據的關鍵特性之一，它關注的是數據的品質和可信度。由於大數據來源多樣，可能包含雜訊、錯誤、偏差或不一致性，因此評估和處理數據的真實性非常重要。

#19

★★★★

從龐大的數據中提取有用的見解和商業價值，是指大數據 (Big Data) 的哪個特性？

A

資料量 (Volume)

B

速度 (Velocity)

C

多樣性 (Variety)

D

價值 (Value)

答案解析

價值 (Value) 是大數據的最終目標。儘管數據量大、速度快、種類多，但如果不能從中提取出有意義的資訊、洞察或可執行的決策，那麼這些數據本身就沒有商業價值。數據的價值密度通常不高，需要透過分析來發掘。

#20

★★★

哪種檔案格式常用於儲存表格形式的結構化數據 (Structured Data)，並使用逗號分隔值？

A

JSON (JavaScript Object Notation)

B

XML (Extensible Markup Language)

C

CSV (Comma-Separated Values)

D

TXT (Plain Text)

答案解析

CSV (Comma-Separated Values) 是一種簡單的文本格式，用於儲存表格數據（數字和文本）。每行代表一條記錄，每條記錄中的欄位用逗號分隔。它廣泛用於數據交換。JSON 和 XML 是半結構化數據格式，TXT 是純文本。

#21

★★★

哪種資料庫類型最適合儲存關係固定、結構清晰的數據，如客戶訂單資料？

A

關聯式資料庫 (Relational Database) (e.g., MySQL, PostgreSQL)

B

NoSQL 資料庫 (Not Only SQL Database) (e.g., MongoDB)

C

圖形資料庫 (Graph Database) (e.g., Neo4j)

D

時間序列資料庫 (Time Series Database) (e.g., InfluxDB)

答案解析

關聯式資料庫 (Relational Database) 使用表格來儲存數據，表格之間可以建立關聯。它非常適合儲存結構化、關係明確的數據，並支援複雜的 SQL (Structured Query Language) 查詢。NoSQL 適用於非結構化或半結構化數據，圖形資料庫用於儲存關係數據，時間序列資料庫用於儲存時間相關數據。

#22

★★★

從物聯網 (IoT, Internet of Things) 設備持續收集溫度、濕度等數據，是哪種資料收集方法 (Data Collection Method)？

A

問卷調查 (Surveys)

B

訪談 (Interviews)

C

感測器數據收集 (Sensor Data Collection)

D

網路爬蟲 (Web Scraping)

答案解析

物聯網 (IoT) 設備上的感測器 (Sensors) 可以自動、持續地收集環境數據（如溫度、濕度、光線、壓力等）或狀態數據。這種方法稱為感測器數據收集 (Sensor Data Collection)。問卷和訪談是主動向人收集信息，網路爬蟲是從網站提取數據。

#23

★★★

一家公司想要了解市場上競爭對手的產品價格，他們可能會使用哪種方法從電商網站自動收集資訊？

A

內部銷售記錄分析

B

焦點小組訪談

C

網路爬蟲 (Web Scraping)

D

政府公開資料

答案解析

網路爬蟲 (Web Scraping) 是自動化地從網站上提取大量信息的技術。公司可以利用爬蟲定期抓取競爭對手在電商網站上公開的產品價格、規格等信息，進行市場分析。

#24

★★★

由研究人員直接透過實驗或觀察收集而來的第一手資料稱為什麼？

A

初級資料 (Primary Data)

B

次級資料 (Secondary Data)

C

內部資料 (Internal Data)

D

外部資料 (External Data)

答案解析

初級資料 (Primary Data) 是指研究者為了特定的研究目的而首次收集的原始資料，例如透過問卷、訪談、實驗直接取得的數據。相對地，次級資料 (Secondary Data) 是指由他人收集、已經存在的資料，研究者將其用於新的分析目的，例如使用政府統計數據或已發表的研究報告。

#25

★★★

研究人員使用政府公布的人口普查數據來分析地區的教育水平，這些數據屬於？

A

初級資料 (Primary Data)

B

次級資料 (Secondary Data)

C

實驗資料 (Experimental Data)

D

觀察資料 (Observational Data)

答案解析

次級資料 (Secondary Data) 是先前由他人為其他目的收集的數據。政府人口普查數據是由政府收集發布的，研究人員將這些現有數據用於自己的分析，因此屬於次級資料。

#26

★★★

描述數據的數據（例如，資料的來源、創建日期、格式等）稱為什麼？

A

原始資料 (Raw Data)

B

結構化數據 (Structured Data)

C

元數據 (Metadata)

D

大數據 (Big Data)

答案解析

元數據 (Metadata) 是「關於數據的數據」。它提供了數據的背景資訊，例如數據的定義、來源、格式、結構、創建時間、權限等，有助於理解、管理和使用數據。

#27

★★★

如果一個客戶的年齡在一個資料表被記錄為 30 歲，在另一個表被記錄為 35 歲，這違反了資料品質的哪個面向？

A

準確性 (Accuracy)

B

完整性 (Completeness)

C

一致性 (Consistency)

D

及時性 (Timeliness)

答案解析

一致性 (Consistency) 指的是數據在不同的系統或記錄中保持一致，沒有矛盾。同一個客戶在不同地方有不同的年齡記錄，就表示數據存在不一致的問題。

#28

★★★

分析上個月的銷售數據來預測下個月的趨勢，這主要依賴資料品質的哪個面向？

A

準確性 (Accuracy)

B

完整性 (Completeness)

C

一致性 (Consistency)

D

及時性 (Timeliness)

答案解析

及時性 (Timeliness) 指的是數據是否在其需要的時間範圍內可用且是最新的。使用過時的數據進行預測可能會導致不準確的結果。分析上個月的數據來預測下個月，就要求上個月的數據是及時可用的。

#29

★★★★

在機器學習 (ML) 中，模型的「輸入」通常稱為什麼？

A

特徵 (Features)

B

標籤 (Labels)

C

樣本 (Samples)

D

參數 (Parameters)

答案解析

特徵 (Features) 是模型用來進行預測或分類的輸入變數或屬性。標籤 (Labels) 是監督式學習中模型要預測的目標輸出。樣本 (Samples) 是資料集中的單個數據點或實例。參數 (Parameters) 是模型在訓練過程中學習到的內部變數。

#30

★★★★

下列何者不是直接從資料中學習，而是基於一組預先定義的規則來運作的系統？

A

監督式學習模型

B

非監督式學習模型

C

強化學習模型

D

專家系統 (Expert System)

答案解析

專家系統 (Expert System) 是一種早期的 AI，它基於人類專家的知識和經驗，將其編碼成一組「如果-那麼」(If-Then) 的規則，用來解決特定領域的問題。它不從數據中學習，而是依賴預先定義的規則庫。而監督式、非監督式和強化學習都是機器學習的方法，需要從資料中學習。

iPAS AI應用規劃師 初級

iPAS AI應用規劃師初級